A master face is a face image that passes face-based identity authentication for a high percentage of the population. These faces can be used to impersonate, with a high probability of success, any user, without having access to any user information. We optimize these faces for 2D and 3D face verification models, by using an evolutionary algorithm in the latent embedding space of the StyleGAN face generator. For 2D face verification, multiple evolutionary strategies are compared, and we propose a novel approach that employs a neural network to direct the search toward promising samples, without adding fitness evaluations. The results we present demonstrate that it is possible to obtain a considerable coverage of the identities in the LFW or RFW datasets with less than 10 master faces, for six leading deep face recognition systems. In 3D, we generate faces using the 2D StyleGAN2 generator and predict a 3D structure using a deep 3D face reconstruction network. When employing two different 3D face recognition systems, we are able to obtain a coverage of 40%-50%. Additionally, we present the generation of paired 2D RGB and 3D master faces, which simultaneously match 2D and 3D models with high impersonation rates.
translated by 谷歌翻译
动力系统的演变通常由非线性偏微分方程(PDE)控制,在模拟框架中,其解决方案需要大量的计算资源。在这项工作中,我们提出了一种新颖的方法,该方法将超网络求解器与傅立叶神经操作员体系结构相结合。我们的方法分别处理时间和空间。结果,它通过采用部分差分运算符的一般组成特性,成功地在连续时间步骤中成功传播了初始条件。在先前的工作之后,在特定时间点提供监督。我们在各个时间演化PDE上测试我们的方法,包括一个,两个和三个空间维度中的非线性流体流。结果表明,新方法在监督点的时间点提高了学习准确性,并能够插入和解决任何中间时间的解决方案。
translated by 谷歌翻译
我们介绍了一种零拍的视频字幕方法,该方法采用了两个冷冻网络:GPT-2语言模型和剪辑图像文本匹配模型。匹配分数用于引导语言模型生成一个句子,该句子的平均匹配分数高于视频帧的一个子集。与零拍图像字幕方法不同,我们的工作立即考虑整个句子。这是通过在生成过程中优化从头开始的一部分,通过在提示中修改所有其他令牌的表示,并通过迭代重复该过程,逐渐提高生成句子的特殊性和全面性来实现。我们的实验表明,生成的字幕是连贯的,并显示了广泛的现实知识。我们的代码可在以下网址找到:https://github.com/yoadtew/zero-shot-video-to-text
translated by 谷歌翻译
给定输入图像,没有其他的方法,我们的方法返回图像中的对象和描述对象的短语中的边界框。这是在开放世界范式中实现的,在该范式中,在本地化机制训练期间可能没有遇到输入图像中的对象。此外,培训发生在弱监督的环境中,那里没有界限。为了实现这一目标,我们的方法结合了两个预训练的网络:剪辑图像到文本匹配分数和BLIP图像字幕工具。培训是在可可图像及其标题上进行的,并基于剪辑。然后,在推断期间,BLIP用于生成有关当前图像各个区域的假设。我们的工作概括了弱监督的细分和短语接地,并在经验上表现出了在两个领域中的最佳状态。它还显示了我们作品中提出的纯粹监督开放世界纯粹的视觉短语接地的新任务中非常令人信服的结果。例如,在用于基准词组接地的数据集上,与使用人体字幕作为附加输入的方法相比,我们的方法导致非常适度的降解。我们的代码可在https://github.com/talshaharabany/what-is-where-by-looking上找到,可以在https:// talshaharabany/what-is-where-where-where-by-by-looking找到实时演示。
translated by 谷歌翻译
我们提出了一种新颖的方式来调节预验证的denoising扩散语音模型,以在训练期间看不见的新颖人的声音产生言语。该方法需要目标人的短(〜3秒)样本,并且在推理时间内产生,没有任何训练步骤。该方法的核心是采样过程,将denoising模型的估计与新扬声器样本的低通版本结合在一起。客观和主观评估表明,我们的抽样方法可以在频率方面产生与目标扬声器相似的声音,其准确性与最新方法相当,并且没有训练。
translated by 谷歌翻译
我们为单个通道语音分离任务提供了上限,该任务是基于关于短段的性质的假设。使用界限,我们能够证明,尽管最近的方法对少数发言人取得了重大进展,但五名和十位扬声器的余地都有改进的余地。然后,我们引入了一个深神网络,即迭代地改善了不同的说话者的估计。在测试时,根据我们的分析产生的相互信息标准,SPEIT的每个测试样品具有不同的迭代次数。在一系列广泛的实验中,SEPIT的表现优于2、3、5和10扬声器的最新神经网络。
translated by 谷歌翻译
通过使用图像文本匹配模型的使用,零光学习在计算机视觉中的应用已彻底改变。最值得注意的示例,剪辑,已广泛用于带有文本提示的零摄像分类和指导生成模型。但是,对于输入文本的措辞,夹子的零拍情况不稳定,因此有必要仔细设计所用的提示。我们发现这种不稳定性源于选择性相似性分数,该得分仅基于语义上有意义的输入令牌的子集。为了减轻它,我们提出了一种新颖的基于可解释的方法,该方法增加了损失术语,以确保剪辑专注于输入的所有相关语义部分,此外还采用了以前的作品中使用的夹子相似性损失。当通过及时的工程应用于单发分类时,我们的方法可以提高识别率,而无需进行额外的培训或微调。此外,我们表明使用我们的方法对生成模型的剪辑指导显着改善了生成的图像。最后,我们通过在对象位置进行空间条件来证明对基于文本的图像生成的新颖使用,这是需要将图像解释性热图限制在预定的边界框中。
translated by 谷歌翻译
变压器已成为机器学习的重要主力,并具有许多应用。这需要开发可靠的方法来提高其透明度。已经提出了多种基于梯度信息的多种可解释性方法。我们表明,变压器中的梯度仅在本地反映该函数,因此无法可靠地确定输入特征对预测的贡献。我们将注意力头和分层确定为这种不可靠的解释的主要原因,并提出了通过这些层传播的一种更稳定的方式。我们的建议在理论上和经验上都显示出良好的LRP方法的适当扩展,以克服简单基于梯度的方法的缺乏,并实现先进的解释绩效在广泛的变压器模型和数据集上。
translated by 谷歌翻译
我们在自我神经调节任务中获得了一个人的学习进步的个人签名,由功能MRI(FMRI)为指导。签名基于在第一节中给定第二神经融合会话中Amygdala的活性。该预测由深神经网络进行,这是在整个培训队训练的患者的培训。该信号,其指示人在执行Amygdala调制任务方面的进步,在多个原型脑状态中聚集,然后通过线性分类器对各种个人和临床适应症进行分类。所获得的签名的预测力比以前从FMRI神经融合获得个人签名的方法更强,并且提供了人的学习模式可以用作诊断工具的指示。我们的代码已提供,并通过道德批准,共享数据。
translated by 谷歌翻译
我们介绍了用于分析功能磁共振成像(FMRI)数据的TFF变压器框架。TFF采用基于变压器的架构和两阶段培训方法。首先,自我监督培训适用于FMRI扫描的集合,其中模型培训用于重建3D卷数据。其次,预训练模型在特定任务上进行了微调,利用地面真理标签。我们的结果显示了各种FMRI任务的最先进的性能,包括年龄和性别预测,以及精神分裂症认可。
translated by 谷歌翻译